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基于 图 像 级 标签 及 超 像素 块 的 弱 监督 显著 性 检测 
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摘 要 : 针对 获得 训练 数据 集 代价 高 昂 问 题 ， 提 出 了 一 种 用 于 图 片 显著 性 检测 的 弱 监 督 新 方法 ， 在 训练 网 络 模型 时 
仅 使 用 图 片 级 标签 。 方 法 分 为 两 个 阶段 ， 在 第 一 阶段 ， 根 据 图 片 级 标签 训练 分 类 模型 ， 获 得 前 景 推断 图 ; 在 第 二 阶 
段 ， 对 原 图 片 进行 超 像素 块 处 理 ， 并 与 阶段 一 得 到 的 前 景 推断 图 进行 融合 ， 从 而 细 化 显著 对 象 边 界 。 算 法 使 用 了 现 
有 的 大 型 训练 集 和 图 像 级 标签 ， 未 使 用 像素 级 标签 ， 从 而 减少 了 注释 的 工作 量 。 在 四 个 公共 基准 数据 集 上 的 实验 结 
果 表 明 ， 性 能 明显 优 于 无 监督 的 模型 ， 与 全 监督 模型 相 比 也 具有 一 定 的 优越 性 。 
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Supervised significant detection based on image level labels and superpixel blocks 


Tan Taizhe':?, Xuan Kangxi"', Zeng Qunsheng! 
(1. College of Computer, Guangdong University of Technology, Guangzhou 510006, China; 2. Heyuan Guanggong 
Collaborative Innovation Research Institute, Heyuan Guangdong 517000, China) 


Abstract: Aiming at the high cost of obtaining the training data set, proposing a new weak supervision method for image 
saliency detection. Only using the picture-level label when training the network model. Dividing the method into two stages. 
In the first stage, training the classification model according to the picture-level label to obtain the foreground inference 
graph. In the second stage, processing the original image by super-pixel block and merged with the foreground inference 
graph obtained in phase one, thus refining significant object boundaries. The algorithm uses existing large training sets and 
image-level tags, eliminating the use of pixel-level tags, which reduces the amount of annotation work. The experimental 
results on the four common benchmark datasets show that the performance is significantly better than the unsupervised 
model, and it has certain advantages compared with the full-supervised model. 
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0 引言 标签 的 弱 监 督 方法 来 训练 显著 性 检测 器 。 图 像 级 标签 表示 图 

J 像 中 存在 的 对 象 类 别 ， 并 且 比 像素 方面 的 注释 更 容易 收集 。 
图 像 效果 是 神经 科学 和 心理 学 中 一 个 重要 的 基础 研究 问 ” 同时 ， 图 像 级 标签 提供 了 很 可 能 是 显著 前 景 的 图 像 中 主要 对 
题 ， 是 用 于 研究 人 类 视觉 系统 从 复杂 场景 中 选择 感 兴趣 区 域 。 象 的 类 别 信息 。 此 外 ， 最近 的 工作 7 已 经 提出 ， 只 有 图 像 级 
的 机 制 。 人 类 有 能 力 准确 快速 地 发 现 感 兴趣 的 对 象 (或 区 域 ) 别 标签 训练 的 DNN 也 提供 了 对 象 位 置信 息 。 因 此 ， 这 种 仅 
这 就 是 所 谓 的 焦点 或 显著 的 情景 。 在 突出 刺激 的 驱动 下 ， 六 图 像 级 标签 的 来 训练 DNN 来 检测 突出 物体 的 弱 监 督 方 
意 力 被 认为 是 部 分 自由 的 、 自 下 而 上 的 、 无 记忆 的 。 注 意 力 ”法 是 行 之 有 效 的 。 
也 可 以 由 相对 缓慢 的 、 自 上 而 下 的 记忆 依赖 机 制 来 指导 。 比 尽管 使 用 DNN 能 得 到 图 像 可 视 化 后 能 明显 地 提取 出 前 
如 ， 当 人 们 看 人 脸 时 ， 所 熟悉 的 面孔 可 能 会 先 一 步 引 起 人 们 景 目标 ,但 是 在 边缘 处 仍然 是 模糊 的 ， 这 是 因为 边界 周 车 
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的 注意 。 可 靠 的 视觉 显著 性 估计 使 得 即使 在 没有 先 验 知识 的 。 像素 集中 在 相似 的 感受 野 ， 所 以 需要 对 显著 图 做 边界 细 化 处 
情况 下 也 可 以 对 图 像 进行 适当 的 处 理 。 因 此 ， 视 觉 显著 性 是 。 理 。 因 此 ， 本 文 的 实验 分 为 两 个 阶段 ， 使 用 图 像 级 标签 的 预 
许多 计算 机 视觉 任务 的 重要 步 又。 训练 和 结合 超 像素 块 的 边界 细 化 。 

近 几 年 ， 在 计算 机 视觉 领域 取得 重大 进展 的 卷 积 神经 网 在 第 一 阶段 ， 鉴 于 池 化 层 会 损失 大 量 的 细节 信息 ， 利 用 
络 (CNN) 引起 了 人 们 的 广泛 关注 ， 兴 起 了 使 用 精确 的 像素 。 图 像 级 标签 预 训练 了 一 个 全 卷 积 网 络 (FCN), 通过 改变 卷 积 
级 注释 样本 进行 图 片 显著 性 检测 的 浪潮 -3。 与 无 监督 方法 。” 核 在 图 片 的 滑动 步 长 来 代 葵 池 化 层 ， 从 而 获得 多 尺度 的 显著 
(5 相 比 ， 基 于 全 监督 机 制 学 习 的 DNN 更 有 效 地 捕获 语义 上 特征 。 第 二 阶段 ， 受 文献 [8] 的 启发 ， 提 出 了 一 种 卷 积 特征 - 
突出 的 前 景区 域 , 在 复杂 场景 下 产生 准确 的 结果 。 但 是 , 鉴 。” 超 像素 边界 联合 细 化 的 全 新 方法 。 首 先 整合 第 一 阶段 得 到 的 
于 DNN 的 数据 饥饿 性 质 ， 其 卓越 的 性 能 也 严重 依赖 于 大 量 。 ”特征 图 到 其 特征 边界 《FB)， 然 后 对 原 图 进行 超 像素 处 理 获 
数据 集 与 像素 级 注解 进行 训练 。 然 而 ， 注 释 工作 非常 繁 颈 ， ”得 超 像素 边界 《SPB )。 根 据 SPD 调整 FB， 从 而 达到 细 化 边 
精确 注释 的 训练 集 仍然 稀少 且 昂贵 。 界 的 目的 。 

为 了 减轻 大 规模 像素 级 注释 的 需要 ， 本 文 研究 了 图 像 级 本 文 的 贡献 包括 两 个 方面 。 首 先 ， 为 弱 监督 显著 性 检测 
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提供 了 一 种 新 的 方向 ， 只 
极 大 减少 了 注释 的 工作 量 ; 
界 方法 ， 更 好 地 利用 了 原 图 的 
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使 用 现 有 的 大 量 图 像 级 标签 ， 
了 一 种 新 颖 的 旨 
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从 而 ”输出 N 个 通道 的 H*W 分 数 图 ， 每 一 个 通道 代表 一 个 类 别 ， 


化 边 这 N 个 通道 中 对 应 点 的 值 代表 图 片 对 应 像素 点 属于 此 类 的 可 


季 人 信息， 从 而 弥补 了 卷 积 神 ”能 性 。 可 是 ，FCN 提取 的 显著 图 边缘 却 非常 模糊 。 所 以 ， 在 
的 不 足 ， 进 一 步 提高 了 检测 的 准确 率 。 


妈 像 处 理 算 法 ， 像 CRFsg1、 随 机 森林 00-22， 
在 显著 性 检测 问 


于 像 上 找到 图 结构 来 捕获 
分 类 器 标记 不 同 的 实体 , 如 超 像素 等 04-19。Jiang AN 
将 显著 性 检测 当做 一 个 回归 问题 ， 在 对 


题 上 。 这 些 现 有 的 方法 2.1 
图 像 的 上 下 文 信息 以 及 


弱 监 督 显著 性 检测 中 , 本 文 改 最 后 的 输出 层 为 N*1*1 的 分 数 
Ed, 这 N 个 值 分 别 代 表 这 张 图 片 属 于 此 类 的 可 能 性 ;然后 通 
过 整合 高 层次 的 卷 积 层 特征 图 得 到 一 张 前 景 推断 图 ， 接 着 对 
推断 图 做 进一步 的 后 续 处 理 。 
前 景 推 断 图 

在 以 图 像 级 标签 为 监督 信号 的 FCN 模型 训练 时 , 其 卷 积 
核能 捕捉 到 输入 图 像 的 对 象 区 域 ， 每 个 通道 对 应 对 象 的 一 个 


图像 进 行 超 像素 处 理 。 特征。 在 显著 性 检测 任务 中 ， 本 文 不 关心 对 象 类 别 ， 则 在 发 


督学 习 的 方法 将 特定 区 域 的 特征 向 量 映射 到 显著 
AM E. 在 训练 结束 后 ， 再 整合 成 一 张 显著 图 。 H 


现 所 有 的 显著 对 象 区 域 。 为 了 获得 这 样 的 与 类 别 无 关 的 显著 


| 练 一 个 SVM 来 检测 图 像 中 的 显著 物体 


用 了 超 边 缘分 块 以 及 多 尺度 方法 
ET DNN 的 方法 却 i 
基于 FCN 的 显 


竞争 力 的 表现 。 


网 络 逐 步 对 其 进行 分 级 细 化 。 可 训 


素 级 注释 ， 这 种 方法 的 成 本 是 


搜索 来 预测 显著 性 
个 双 阶 段 深 度 网 络 ， 首 先生 成 一 个 


PLISA 图 可 以 将 同一 尺度 所 有 通道 的 特征 图 求 和 ， 然 后 再 映射 到 

， 与 此 同时 使 ” 0-255 的 颜色 值 之 间 进 行 可 视 化 2。 但 是 ,这样 做 有 个 缺点 : 

进行 后 续 处 理 。 显著 对 象 的 部 分 响应 会 被 其 他 通道 的 较 高 响应 区 域 抑制 ， 

E 明 了 其 在 显著 性 检测 方面 。 此 产生 的 显著 图 要 么 有 大 量 的 背景 噪声 ， 要 么 不 能 均匀 地 高 
著 性 检测 方法 .9 在 准确 。 亮 显著 区 域 。 

Wang 等 人 PJ 通过 整合 所 以 , 为 了 解决 上 述 问题 , 本文 在 训练 FCN 时 添加 了 一 

E]. 文献 [22] 中 提出 了 一 ”个 分 支 来 自动 生成 前 景 推断 图 (FIM)。 这 一 分 支 也 是 由 一 系 


粗略 图 ， 然 后 使 
练 这 些 模型 需要 大 量 的 像 


TER 
。 综 上 所 述 ， 使 用 


EX mM. x 
出 了 前 景 推断 网 络 FIN RS ANAK TEES BL 


15-4 


列 的 卷 积 层 和 一 个 sigmoid 层 组 成 。 输 出 的 特征 图 F BUB 


献 [23] 作 为 弱 


个 通道 ， 数 值 范围 在 [0,1]， 代 表 了 对 应 像素 点 的 显著 度 。 总 
的 来 说 ， 给 定 一 张 图 片 X， 经 过 模型 计算 ， 分 别 生成 C〈 通 
道 数 ) 张 特征 图 S(n*n) 和 一 张 前 景 推断 图 F, 代入 以 下 公式 : 


DNN 模 


E 明 显 优 于 无 监督 算法 ， 甚 至 优 于 全 监 
E 型 结合 图 像 级 标签 的 弱 监 其 中 


旭 像 级 标签 预测 的 CNN 通常 


然后 是 几 个 全 连接 层 。 假设 用 
的 类 别 标签 。CNN 就 是 以 工作 
列 计算 后 得 到 一 个 N 维 的 分 数 向 量 Y,Y 中 最 大 值 
妈 片 的 类 别 。 同 时 ， 训 练 CNN 模型 时 
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函数 工 来 衡量 预测 值 准确 情况 。 虽 然 CNN EZ 


督 显著 性 检测 方法 也 是 解决 图 像 显著 性 问题 的 一 个 新 方向 。 MRR, s, 代表 两 者 整合 后 的 特征 
弱 监 督 显著 性 检测 


I 代表 训练 图 


一 系列 卷 积 层 组 成 ， 同时 考虑 到 使 用 特定 的 图 像 级 标签 训练 的 FCN 很 难 履 
Fr,1E {1,2,...， 盖 到 不 在 训练 集中 的 类 别 ， 所 以 将 式 (1) 的 蒙 板 操作 应 用 于 
EKMA, 在 一 系 ”中 间 提 取 的 特征 图 ， 而 不 是 最 后 一 层 。 因 为 中 间 层 特征 图 并 

的 索引 即 不 直接 和 图 片 的 类 别 相 对 应 ， 而 是 提取 出 特定 的 结构 、 纹 理 


[需要 最 小 化 损失 ”等 ， 这些 表达 特征 的 方式 是 通用 的 ， 这 样 ， 生 成 的 FIM 能 


型 基于 图 像 级 


S =S OF (1) 

S, 代表 特征 图 S 的 第 k 个 通道 ，@ 代表 % 和 下 对 应 
图 传递 到 下 一 层 。 这样 

通过 利用 特征 图 S 中 的 每 个 通道 的 高 响应 ， 不 让 它们 相互 抑 
制 , 使 得 FIM 的 生成 也 有 一 个 不 断 学 习 和 训练 的 过 程 05261, 


更 好 地 捕捉 到 训练 时 为 出 现 过 的 新 类 别 ， 提 高 了 模型 的 鲁 棒 


chinaXiv 


卷 积 网 络 CFCNO 来 保存 


| 练 ， 但 最 近 的 实验 证 明 ， 高 层次 的 卷 积 层 有 能 TE. 
RIRA HERRER. "3i RUE 1 为 本 文 的 网 络 结构 。 在 模型 的 第 一 阶段 通过 训练 
置信 息 无 法 转换 成 全 连接 层 的 编码 。 FCN (1) ~ C50 来 生成 一 张 前 景 推断 图 FIM。 在 第 二 阶段 结 
在 多 标签 识别 任务 中 Jonathan long 等 人 提出 了 全 ” 合 超 像素 块 显著 度 图 (6) 对 FIM 进行 边缘 细 化 生成 最 终 的 
标的 位 置信 息 。 给 定 一 张 输入 图 ”显著 图 CD. 
的 像素 级 注释 作为 监督 信号 , 经 过 模型 训练 后 ， 
(2) 共享 卷 积 层 
(5) 分 类 
| “(4) 蒙 板 特征 图 
NN 
N v, » 公鸡 
一 
ZA 
£ 
(3) FIM 
(7) 显著 图 


本 文 设计 的 网 络 结构 


Fig. 1 Designed network structure in this paper 


201812.00065v1 


chinaXiv 


录用 定稿 


2.2 基于 图 像 级 标签 的 预 训练 


力 总 是 先 关注 图 片 的 
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Pp 心 位 置 ， 然 后 再 


向 四 周 发 散 B31， 第 


从 这 一 节 中 正式 开始 介绍 弱 监 督 显著 性 检测 方法 的 第 三 个 特征 由 (1830 提出， 显著 目标 通常 是 聚 在 一 起 的 ， 而 不 是 
阶段 。 使 用 ImageNet 数据 集训 练 网 络 ， 这 一 数据 集中 包括 。 ”分 散在 图 片 各 处 ， 且 人 们 在 观察 物体 时 ， 也 是 观察 物体 的 边 
1000 个 对 象 类 别 ， 每 类 1000 张 图 片 。 缘 ， 然 后 大 脑 再 将 这 些 边 缘 进 行 组 合 ， 形 成 物体 。 

正如 上 述 讨论 ， 由 于 FIM 的 生成 和 和 FCN 的 训练 有 着 本 文 的 目标 是 将 图 片 分 割 成 一 个 个 封闭 的 轮廓 ， 其 边界 
密切 的 联系 ， 所 以 它们 可 以 联合 训练 并 共享 卷 积 特征 。 具 体 “包含 了 图 像 中 显著 目标 对 象 的 边界 。 首 先 ， 通 过 边缘 检测 对 
实现 是 ， 在 16 层 的 VGG 网 络 P27 后 设计 共享 网 络 分 支 ， 该 。 图 像 进 行 分 制 ， 进 而 生成 超 像素 块 ， 然 后 根据 超 像素 图 像 计 
VGG 网 络 由 13 个 卷 积 层 组 成 ， 卷 积 层 之 间 由 ReLU 非 线性 。” 算 对 应 的 显著 度 ,文献 [9,31] 将 原始 图 像 缩放 为 较 小 的 尺寸 来 
函数 和 4 个 最 大 化 池 连 接 。FIM 分 支 网 络 由 一 个 卷 积 层 、 减少 计算 量 。 而 本 文 的 方法 得 到 的 图 像 中 的 超 像素 块 数 量 远 
个 BN 层 pa 和 一 个 Sigmoid 层 计算 得 到 ,然后 作为 蒙 板 和 FECN 小 于 像素 数量 ， 因 此 在 减少 计算 量 的 同时 ， 也 能 生成 全 分 关 
整合 得 到 新 的 特征 图 , 最 后 通过 全 连接 层 生 成 1000 个 对 象 类 。” 率 的 边缘 图 。 

别 得 分 向 量 ， 并 使 用 Softmax 函数 将 得 分 向 量 转换 成 类 别 概 在 图 像 分 割 问题 上 分 两 方面 考虑 :颜色 距离 和 空间 距离 。 
率 。 本文 利用 文献 [40] 的 方法 将 图 片 分 成 若干 个 区 域 ， 然 后 

对 于 每 个 图 像 生 成 的 显著 图 ， 较 大 的 信 意 味 着 该 像素 更 。 根据 颜色 对 比 度 评估 每 一 个 区 域 基于 颜色 值 的 显著 度 。 根 据 
可 能 属于 前 景 。 通 过 大 量 的 观察 可 以 推断 出 前 景 像素 和 语义 。 ”特征 一 、 二 ， 如 果 一 个 区 域 〔 超 像素 块 ) 与 其 周围 的 上 下 文 
对 象 之 间 存 在 显 式 关联 。 由 于 每 个 简单 图 像 都 附带 有 语义 标 “信息 明显 不 同 ， 同 时 ， 其 与 图 片 中 心 的 点 位 置 较 近 ， 则 此 区 
签 ， 因 此 可 以 容易 地 推断 出 可 以 为 前 景 候选 像素 分 配 相应 的 。 域 ( 超 像素 块 ) 显著 的 可 能 性 较 大 。 同 时 ， 对 于 属于 同一 个 
图 像 级 标签 。 然 后 ， 提 出 了 一 种 多 标签 交叉 炳 损失 函数 来 训 ”类别 的 超 像素 块 来 说 ， 一 方面 ， 无 论 空 间 上 距离 多 远 ， 它 们 
练 显著 图 监督 下 的 分 割 网 络 。 的 相似 度 总 是 很 高 的 ， 另 一 方面 ， 距 离 过 远 的 相似 超 像素 块 

e ABA N AE nui pvo uuu 无 法 明显 相互 所 高 对 方 的 显著 度 。 

EE ELS N AURAR aa 本 文采 综 上 所 述 ， 对 于 一 张 含 有 N 个 超 像素 块 的 图 像 来 说 ， 先 
用 最 小 化 下 面 的 损失 函数 3 来 达到 使 模型 收敛 的 方法 : 计算 中 心 超 像素 块 的 显著 性 ; 

njn- epi) jm -i-ep|- aa " 
d (Pisqa) = wd, (Pign) 


+ Yos - p(k | X,:0) (2) 
-A| fF (X0) h] +70} ， 
其 中 : 9 代表 网 络 参 数 ， 第 一 和 第 二 个 参数 使 保证 预测 准确 


fas SU. S8 — JUS FIM 的 L1 正则 化 ， 最 后 一 
个 参数 是 网 络 衰 减 参数 ， 根 据 经 验 ，4 和 7 分 别 设置 为 7e-5 
和 5e-5。 共 享 层 的 权重 参数 使 用 预 训 练 的 VGG 模型 初始 化 
271， 其 他 层 的 权重 使 用 文献 [29] 的 方法 进行 随机 初始 化 。 所 
有 输入 图 像 都 归 一 化 到 224*224 的 固定 分 辨 率 , 而 FIM 的 分 
辩 率 为 56*56, 然后 通过 双 线 性 内 插 法 放大 到 224*224。 为 了 
使 上 述 损 失 函 数 快 速 收 敛 ， 本 文采 用 随机 梯度 下 降 SGD) 
方法 。 

2.3 ”基于 超 像素 块 的 边缘 检测 

在 DNN 训练 完成 后 可 以 得 到 FIM, 但 正如 前 面 说 到 的 ， 
FIM 的 边缘 比较 模糊 ， 所 以 ， 在 这 一 部 分 将 对 FIM 做 进一步 
的 后 续 处 理 来 细 化 其 轮廓 。 


EL FH: 


空间 距离 ， 


异 度 。 


对 于 其 他 非 


w. AH w, 是 下 
和 空间 距离 的 强度 大 小 。 4(p,4) 代表 超 


了 中 心 超 像 素 块 显著 度 的 影响 : 


1 N1 
S -1-exp4-—— > d(p;, 
e| vi (P; a} 


+d (pi, qe )S camer 


P 心 超 像 素 块 ， 根 据 特 条 


Ws position (piq,) , 
deoo 和 dosis 分 别 代 表 超 像素 块 p: 、 
个 超 参 数 ， 分 别 用 来 表示 颜色 距离 
像素 块 pp a 的 相 


4 的 颜色 距离 和 


E 2， 本 文 额外 引入 


(4) 


4 在 这 里 指 处 于 中 心 超 像素 块 。 通 过 上 述 公式 可 以 得 到 图 像 


中 每 一 个 像素 块 的 显著 度 。 


2.4 FIM 和 超 像素 块 联合 边界 细 化 


对 比 度 是 评估 人 类 视觉 的 重要 参数 ， 由 于 显著 物体 和 周 


通过 2.2 节 的 预 训练 后 ， 妆 
区 域 。 正 如 入 们 所 知道 的 ，FIM 中 


E 成 的 


FIM 已 经 捕捉 到 了 前 景 


包含 了 大 量 


的 边缘 信息 ， 


围 环境 的 对 比 度 是 不 同 的 ， 且 人 类 的 视觉 细胞 对 图 像 边缘 更 。 通过 设置 一 个 闵 值 生成 FIM. 的 二 值 化 图 ， 如 图 1 所 示 。 在 对 
加 敏感 ， 所 以 通过 对 比 度 计算 确定 图 像 的 边缘 ， 进 而 将 图 片 FIM 进行 二 值 化 时 ， 每 张 图 片 使 用 的 闵 值 都 是 不 一 样 的 ， 即 
分 割 成 超 像素 块 。 传 统 的 图 像 处 理 方法 根据 图 片 的 三 种 属性 。” ”设置 的 闵 值 不 是 一 个 固定 值 ， 而 是 先 对 图 像 作 降 噪 处 理 ， 以 
对 图 片 进行 处 理 : 颜色 、 纹 理 和 形状 8S“ 中。 这 些 技术 已 经 成 ”去 掉 FIM 中 高 响应 的 噪声 点 ， 然 后 通过 计算 图 像 的 直方 图 ， 
功 应 用 在 各 个 方面 。 但 是 ， 这 些 属性 无 法 提供 对 图 像 的 高 度 ”再 次 将 图 像 中 出 现 频率 低 的 像素 点 用 相似 的 像素 点 代替 0 
理解 ， 因 为 人 类 通常 不 会 单独 从 颜色 、 纹 理 或 者 形状 去 理解 ” 最 后 取 最 大 和 最 小 像素 值 的 一 个 中 间 值 作为 闵 值 。 但 是 ， 可 
图 像 , 而 是 基于 这 三 个 属性 特征 背后 的 相互 联系 , 也 就 是 说 ， 以 看 到 ， 图 像 中 物体 的 边界 仍然 是 不 连续 的 ， 所 以 需要 对 这 
一 张 图 片 中 目标 物体 的 显著 程度 取决 于 其 与 周围 环境 的 独特 。 ” 些 边 界 做 连通 处 理 。 
性 根据 显著 对 象 的 第 三 个 特征 : 显著 对 象 的 边界 都 是 完 3 
根据 笔者 的 观察 ， 显 著 对 象 有 三 个 明显 特征 ， 由 此 可 以 ” 闭合 的 ,首先 通过 计算 连通 区 大 小 找到 FIM 的 最 长 边缘 ， 取 
计算 出 显著 对 象 的 形状 特征 : a) 显著 对 象 总 是 和 其 周围 的 环 其 一 个 端点 作为 起 点 ， 根 据 梯度 优先 的 规则 搜索 附近 的 其 他 
境 明显 不 同 ; b) 显著 对 象 几乎 都 位 于 图 像 的 中 心 附 近 ; c) 显 。 边缘 ,如 图 二 所 示 ， 端 点 A 的 延伸 趋势 是 向 下 ， 所 以 它 会 优 
著 对 象 的 边界 都 是 完美 闭合 的 。 先 向 下 搜索 未 连通 的 边缘 。 当 找到 需要 连通 的 端点 B 后 ，A 
第 一 个 特征 基于 自 下 而 上 的 视觉 刺激 ,人们 313 对 此 点 就 会 根据 2.3 节 得 到 的 显著 分 数 图 向 B 点 延伸 。 
已 经 做 了 大 量 的 研究 ， 第 二 个 是 位 置 优先 特征 ， 人 们 的 注意 2 为 FIM 边缘 细 化 过 程 。 图 中 (a) 为 超 像 素 块 显著 图 ， 
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中 ) 为 二 值 化 后 的 前 景 推断 图 FIM，(@) 为 边缘 细 化 后 的 FIM, 1) SED 包含 100 张 图 片 , 每 张 图 片 包含 一 个 类 别 ; 
其 中 红色 的 线 是 结合 超 像素 块 显著 度 延 伸 的 边缘 线 ，(d) 是 最 2) ECSSD 包含 1000 张 结构 复杂 的 图 片 ， 每 张 图 片 
终 的 显著 性 分 割 结果 。 中 有 多 个 类 别 ; 
3 s 3) MSRA-BP! 包含 5000 张 图 片 ，200 多 个 类 别 ; 
实验 4) PASAL-SU2 从 PASCAL VOC 数据 集中 精心 挑选 的 
在 超 参数 的 设计 上 , 本 文 提出 的 方法 基于 TensorFlow 实 复杂 环境 下 的 850 张 图 片 
现 ， 权 重 衰减 取 0.001， 冲 量 取 0.9。FIM 二 值 化 时 若 像 素 值 在 比较 时 ， 本 文 引 入 了 5; 作为 效果 指标 ， 如 图 3 所 示 。 
的 频率 小 于 10 则 对 作 相 似 点 代替 处 理 ， 在 得 到 即 对 FIM 中 对 最 终 得 到 的 显著 图 进行 二 值 化 ， 并 与 像素 级 真 值 注释 进行 
的 像素 点 看 其 显著 度 大 于 阅 值 则 将 其 设置 为 255， 反 之 则 置 对 比 ， 可 以 得 到 一 组 正确 值 和 召回 值 。 每 一 个 数据 集 的 5 是 
为 0。 从 所 有 图 像 的 平均 精度 和 召回 值得 到 ， i 的 定义 为 
在 实验 方面 ， 本 文 方法 和 MBSÜ!, wCtrl^!, MRI, _ (l+ f)Precision x Recall (5) 
BSCAI2I, WwSSDI. RFCNP!, DCLP2l, DS, MC 1 这 九 个 ý B Precision + Recall i 


模型 比较 ， 由 于 显著 性 检测 是 一 个 新 的 视觉 问题 ， 发 布 的 数 KB. FP” 值 为 0.3。 通 过 与 现今 最 好 的 方法 进行 比较 以 证 明 
据 集 也 十 分 有 限 ， 所 a Rad 4 个 公共 数据 集 进行 测试 : ”本 文 方法 的 有 效 性 。 


(d) 


(b) 


图 2 FIM 边缘 细 化 过 程 


Fig.2 FIM edge thinning process 
10 
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图 3 precision-recall 曲线 
Fig.3 .precision-recall curve 
表 1 算法 测试 比较 目的 和 一 定 的 监督 信号 进行 不 断 调 优 的 ， 所 以 始终 优 于 无 监 
Table 1 Test comparison of algorithms 督 方法 。 同 时 ， 由 于 没有 使 用 获取 代价 高 昂 的 像素 级 注释 ， 
Unsupervised Weakly Fully 但 最 终 的 实验 效果 却 和 全 监督 方法 相 比 也 定 的 优势 。 另 
MBS wCtr MR BSCA WSS This RFCN DCL DS MC 外 ， 大 多 数 全 监督 显著 性 检测 数据 集 包 含 的 图 片 虽然 很 多 ， 
SED 0.776 0.786 0.782 0.756 0.838 0.841 0.813 0.825 0.794 0.817 但 类 别 却 不 足 300， 而 本 文 的 方法 基于 ImgNet 进行 训练 ， 提 
ECSSD 0.673 0.676 0.69 0.705 0.823 0.817 0.834 0.829 0.826 0.796 取 到 的 类 别 特征 相应 也 很 多 ， 所 以 本 文 的 方法 具有 更 好 的 和 鲁 
MSRA-B 0.726 0.731 0.729 0.735 0.783 0.792 0.811 0.802 0.787 0.763 棒 性 。 


PASAL-S 0.604 0.597 0.583 0.597 0.72 0.733 0.747 0.71 0.655 0.687 


4 ”结束 语 
本 文选 择 了 当前 最 优 的 四 个 无 监督 算法 、 一 个 弱 监 督 算 
法 和 四 个 全 监督 算法 作为 比较 ， 结 果 如 表 1 所 示 。 并 引入 下 本 文 提 出 了 一 种 基于 图 像 级 标签 的 弱 监 督 显著 性 检测 方 
“来 衡量 各 方法 的 检测 效果 ， 其 中 黑体 部 分 是 指 当 前 数据 集 法， 此 方法 分 为 两 个 阶段 ， 在 第 一 阶段 ， 在 FCN 的 基础 上 添 
果 。 加 了 新 颖 的 一 层 ， 通 过 学 习 预 测 图 像 级 标签 来 生成 一 张 前 景 
根据 表 1 可 以 看 出 ， 由 于 本 文 的 方法 在 提取 特征 时 是 有 ”” 推断 图 FIM。 在 第 二 阶段 ， 根 据 显 著 对 象 的 三 个 特征 并 结合 
上 下 文 信息 对 输入 图 片 进行 超 像 素 处 理 ， 计 算 每 一 个 超 像素 
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块 的 显著 度 ， 然 后 以 超 像素 块 的 显著 度 为 依据 对 FIM 边缘 进 
行 细 化 处 理 。 通 过 在 基准 数据 集 上 的 评估 验证 了 本 文 方法 的 
有 效 性 。 
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